跳到主要内容

线性回归

原理

机器学习中最简单的模型 也是最流行的模型 速度最快的算法之一 预测输入变量和输出变量之间的关系

分为模型学习和预测两个过程 分为一元回归和多元回归

分为线性回归和非线性回归

目标:尽可能地你和样本数据集,即使误差最小化。带着这个思想去寻找我们的损失函数。

最小二乘损失函数

优化

求解多元回归的系数

正规方程 最小二乘法 梯度下降 批量梯度下贱 Batch Gradient Descent, BGD 可以获得全局最优解 耗时、样本数据量越大,训练速度越慢 随机梯度下降 Stochastic Gradient Descent, SGD 考虑一点样本数据量,训练速度较快 噪音比较多 不一定是全局最优 小批量梯度下降 Mini-batch Gradient Descent, MBGD 避免前两者的缺点 速度快,减少迭代次数

过拟合问题解决方法

建立线性回归模型虽然在训练集上表现很好,在测试集中表现不好,同样在测试集上的损失函数表现很大,为了解决过拟合,引入正则项。

L1正则化指权值向向量中各元素的绝对值之和 L2正则化指权值向向量中各元素的平方和

优化

平均绝对误差 MAE explained_variance_score

均方根误差 RMSE root_mean_squared_error 值越小,离散程度越小

基于 ModelArts 的线性回归实验

参考